Week4-Operations-Architecture

Week 4: 운영 및 최적화 아키텍처

CloudWatch 모니터링, 비용 최적화, IAM 보안 강화를 통한 실제 운영 환경 완성

아키텍처 개요

통합 모니터링 및 운영 체계
    ↓
CloudWatch Dashboard (통합 대시보드)
    ↓
Week 3.5 HA 아키텍처 + 운영 레이어
├── 모니터링 계층
│   ├── CloudWatch Metrics
│   ├── CloudWatch Alarms  
│   ├── CloudWatch Logs
│   └── SNS 알림
├── 비용 관리 계층
│   ├── Cost Explorer
│   ├── Budget Alerts
│   ├── Reserved Instance
│   └── Spot Instance
└── 보안 관리 계층
    ├── IAM Roles & Policies
    ├── Security Groups 최적화
    ├── VPC Flow Logs
    └── AWS Config

1. CloudWatch 통합 모니터링

대시보드 구성

Main Dashboard: "WebApp Production"
├── 인프라 상태
│   ├── ALB Target Health
│   ├── EC2 Instance Status
│   ├── RDS Connection Count
│   └── Auto Scaling Activity
├── 성능 메트릭
│   ├── Response Time (ALB)
│   ├── CPU Utilization (EC2)
│   ├── Memory Usage (Custom)
│   └── Database Performance (RDS)
├── 비즈니스 메트릭
│   ├── Request Count
│   ├── Error Rate (4xx/5xx)
│   ├── User Sessions
│   └── Page Load Time
└── 비용 메트릭
    ├── Daily Spend
    ├── Resource Utilization
    └── Cost per Request

핵심 알람 설정

Critical Alarms:
├── High Error Rate (5xx > 5%)
├── Low Healthy Targets (< 1개)
├── RDS CPU High (> 80%)
├── Database Connection Exhaustion
└── Auto Scaling Failed

Warning Alarms:
├── Response Time High (> 2초)
├── EC2 CPU High (> 70%)
├── Disk Space Low (< 20%)
├── Memory Usage High (> 85%)
└── Daily Cost Spike (> 150% 평균)

로그 통합 관리

Log Groups:
├── /aws/applicationloadbalancer/webapp-alb
├── /aws/ec2/webapp-web
├── /aws/ec2/webapp-was  
├── /aws/rds/instance/webapp-db/error
└── /webapp/application

Log Insights 쿼리:
├── 에러 패턴 분석
├── 성능 병목 식별
├── 사용자 행동 분석
└── 보안 이벤트 탐지

2. 비용 분석 및 최적화

Cost Explorer 분석

비용 분석 관점:
├── 서비스별 비용 (EC2, RDS, ALB)
├── 리전별 비용 분포
├── 태그별 비용 추적
├── 시간대별 사용 패턴
└── 예약 인스턴스 효율성

최적화 기회:
├── Underutilized Resources
├── Right-sizing 권장사항
├── Reserved Instance 추천
├── Spot Instance 적용 가능성
└── S3 Storage Class 최적화

예상 비용 구조 (월 기준)

Week 4 완성 후 예상 비용:
├── EC2 Instances: $60-120 (Auto Scaling)
├── RDS Multi-AZ: $25
├── ALB: $18
├── CloudWatch: $5-10
├── Data Transfer: $5-15
├── EBS Storage: $8
└── 총 예상 비용: $121-196/월

최적화 후 절감 효과:
├── Reserved Instance: 30% 절약
├── Spot Instance: 60% 절약
├── 적정 사이징: 20% 절약
└── 예상 절감 비용: 40-50%

비용 최적화 전략

단기 최적화 (즉시 적용):
├── 사용하지 않는 EBS 볼륨 삭제
├── 개발 환경 스케줄링 (평일만 운영)
├── CloudWatch Logs 보존 기간 조정
└── 불필요한 보안 그룹 정리

중기 최적화 (1-3개월):
├── Reserved Instance 구매
├── Auto Scaling 정책 튜닝
├── 애플리케이션 성능 최적화
└── 데이터베이스 쿼리 최적화

장기 최적화 (6개월+):
├── 컨테이너화 (ECS/EKS)
├── 서버리스 아키텍처 적용
├── CDN 도입 (CloudFront)
└── 멀티 리전 아키텍처

3. IAM 보안 심화

최소 권한 원칙 적용

역할별 IAM 정책:

EC2 Instance Role:
├── CloudWatchAgentServerPolicy
├── S3 배포 버킷 읽기 권한
├── Systems Manager 접근
└── 자체 태그 읽기 권한

Auto Scaling Role:
├── EC2 인스턴스 시작/종료
├── ELB 등록/해제
├── CloudWatch 메트릭 접근
└── SNS 알림 전송

Developer Role:
├── EC2 읽기 권한
├── CloudWatch 대시보드 접근
├── 개발 환경만 수정 권한
└── 프로덕션 환경 읽기 전용

Administrator Role:
├── 전체 서비스 관리 권한
├── 비용 관리 접근
├── IAM 정책 관리
└── 감사 로그 접근

보안 강화 조치

네트워크 보안:
├── VPC Flow Logs 활성화
├── 보안 그룹 최소화
├── NACL 추가 제한
└── WAF 규칙 적용

접근 제어:
├── MFA 필수 설정
├── 임시 자격 증명 사용
├── 정기적 권한 검토
└── 접근 로그 모니터링

데이터 보호:
├── 저장 시 암호화 (EBS, RDS, S3)
├── 전송 중 암호화 (TLS)
├── KMS 키 관리
└── 백업 암호화

4. 운영 자동화

모니터링 자동화

CloudWatch Alarms → SNS → Lambda
├── 장애 발생 시 Slack 알림
├── 자동 스케일링 이벤트 알림
├── 비용 임계값 초과 알림
└── 보안 이벤트 알림

자동 대응:
├── 비정상 인스턴스 자동 교체
├── 로그 보존 기간 자동 관리
├── 백업 스케줄 자동 실행
└── 보안 패치 자동 적용

백업 및 복구 자동화

백업 전략:
├── RDS 자동 백업 (7일 보관)
├── EBS 스냅샷 (일일)
├── 애플리케이션 코드 (S3)
└── 설정 파일 백업

복구 절차:
├── 인스턴스 복구 자동화
├── 데이터베이스 Point-in-Time 복구
├── Cross-Region 재해 복구
└── 복구 테스트 자동화

5. 성능 최적화

애플리케이션 최적화

웹 서버 (Apache):
├── Keep-Alive 최적화
├── 압축 설정 (Gzip/Brotli)
├── 캐시 헤더 최적화
├── 정적 자원 CDN 연동
└── HTTP/2 활성화

WAS 서버 (Tomcat):
├── JVM 힙 메모리 튜닝
├── 연결 풀 최적화
├── 세션 클러스터링
├── 가비지 컬렉션 튜닝
└── 애플리케이션 프로파일링

데이터베이스 최적화

RDS MySQL 최적화:
├── 파라미터 그룹 튜닝
├── 인덱스 최적화
├── 쿼리 성능 분석
├── 연결 풀 관리
└── Read Replica 고려

모니터링 메트릭:
├── Slow Query Log
├── Connection Count
├── Buffer Pool Hit Ratio
├── I/O Wait Time
└── Replication Lag

6. 실제 운영 시나리오

일일 운영 루틴

오전 점검:
├── 야간 알람 검토
├── 성능 대시보드 확인
├── 비용 사용량 체크
├── 백업 상태 확인
└── 보안 이벤트 검토

주간 점검:
├── 용량 계획 검토
├── 성능 트렌드 분석
├── 비용 최적화 기회 식별
├── 보안 정책 업데이트
└── 재해 복구 테스트

장애 대응 프로세스

알람 발생 → 즉시 대응:
1. 영향 범위 평가 (5분 이내)
2. 임시 조치 실행 (15분 이내)
3. 근본 원인 분석 (1시간 이내)
4. 영구 해결책 적용 (4시간 이내)
5. 사후 분석 보고서 작성

에스컬레이션 매트릭스:
├── Level 1: 자동 복구
├── Level 2: 운영자 개입
├── Level 3: 개발팀 지원
└── Level 4: 외부 전문가

Week 4 완성: 실제 운영 가능한 엔터프라이즈급 웹 서비스 완성
전체 과정 요약: AWS EDU/Archive/조선대학교 AWS 멘토링/Edu Architecture/README